都会|云梯_sparkstreaming之实时数据流计算实例

作者：--Fac_k- | 来源：互联网 | 2023-09-12 14:03

篇首语：本文由编程笔记#小编为大家整理，主要介绍了sparkstreaming之实时数据流计算实例相关的知识，希望对你有一定的参考价值。最近在用sparkstreamin

篇首语：本文由编程笔记#小编为大家整理，主要介绍了sparkstreaming之实时数据流计算实例相关的知识，希望对你有一定的参考价值。

最近在用sparkstreaming的技术来实现公司实时号码热度排序&＃xff0c;学习了一下sparkstreaming的相关技术&＃xff0c;今天主要要讲一个简单sparkstreaming实时数据流技术的一个示例&＃xff0c;帮助大家更好的理解和学习sparkstreaming编程原理。

在开始实例之前我们简单的了解一下sparkstreaming的原理&＃xff1a;具体参见&＃xff1a;http://m635674608.iteye.com/blog/2248368

Spark Streaming 是Spark核心API的一个扩展&＃xff0c;可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据&＃xff0c;包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets&＃xff0c;从数据源获取数据之后&＃xff0c;可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统&＃xff0c;数据库和现场仪表盘。在“One Stack rule them all”的基础上&＃xff0c;还可以使用Spark的其他子框架&＃xff0c;如集群学习、图计算等&＃xff0c;对流数据进行处理。

Spark Streaming处理的数据流图&＃xff1a;

Spark的各个子框架&＃xff0c;都是基于核心Spark的&＃xff0c;Spark Streaming在内部的处理机制是&＃xff0c;接收实时流的数据&＃xff0c;并根据一定的时间间隔拆分成一批批的数据&＃xff0c;然后通过Spark Engine处理这些批数据&＃xff0c;最终得到处理后的一批批结果数据。

对应的批数据&＃xff0c;在Spark内核对应一个RDD实例&＃xff0c;因此&＃xff0c;对应流数据的DStream可以看成是一组RDDs&＃xff0c;即RDD的一个序列。通俗点理解的话&＃xff0c;在流数据分成一批一批后&＃xff0c;通过一个先进先出的队列&＃xff0c;然后 Spark Engine从该队列中依次取出一个个批数据&＃xff0c;把批数据封装成一个RDD&＃xff0c;然后进行处理&＃xff0c;这是一个典型的生产者消费者模型&＃xff0c;对应的就有生产者消费者模型的问题&＃xff0c;即如何协调生产速率和消费速率。

Spark Streaming实时计算框架

Spark是一个类似于MapReduce的分布式计算框架&＃xff0c;其核心是弹性分布式数据集&＃xff0c;提供了比MapReduce更丰富的模型&＃xff0c;可以在快速在内存中对数据集进行多次迭代&＃xff0c;以支持复杂的数据挖掘算法和图形计算算法。Spark Streaming是一种构建在Spark上的实时计算框架&＃xff0c;它扩展了Spark处理大规模流式数据的能力。

Spark Streaming的优势在于&＃xff1a;

能运行在100&＃43;的结点上&＃xff0c;并达到秒级延迟。
使用基于内存的Spark作为执行引擎&＃xff0c;具有高效和容错的特性。
能集成Spark的批处理和交互查询。
为实现复杂的算法提供和批处理类似的简单接口。

基于云梯Spark on Yarn的Spark Streaming总体架构如图1所示。其中Spark on Yarn的启动流程我的另外一篇文章&＃xff08;《程序员》2013年11月期刊《深入剖析阿里巴巴云梯Yarn集群》&＃xff09;有详细描述&＃xff0c;这里不再赘述。Spark on Yarn启动后&＃xff0c;由Spark AppMaster把Receiver作为一个Task提交给某一个Spark Executor&＃xff1b;Receive启动后输入数据&＃xff0c;生成数据块&＃xff0c;然后通知Spark AppMaster&＃xff1b;Spark AppMaster会根据数据块生成相应的Job&＃xff0c;并把Job的Task提交给空闲Spark Executor 执行。图中蓝色的粗箭头显示被处理的数据流&＃xff0c;输入数据流可以是磁盘、网络和HDFS等&＃xff0c;输出可以是HDFS&＃xff0c;数据库等。

图1 云梯Spark Streaming总体架构

Spark Streaming的基本原理是将输入数据流以时间片&＃xff08;秒级&＃xff09;为单位进行拆分&＃xff0c;然后以类似批处理的方式处理每个时间片数据&＃xff0c;其基本原理如图2所示。

图2 Spark Streaming基本原理图

首先&＃xff0c;Spark Streaming把实时输入数据流以时间片Δt &＃xff08;如1秒&＃xff09;为单位切分成块。Spark Streaming会把每块数据作为一个RDD&＃xff0c;并使用RDD操作处理每一小块数据。每个块都会生成一个Spark Job处理&＃xff0c;最终结果也返回多块。

下面介绍Spark Streaming内部实现原理。

使用Spark Streaming编写的程序与编写Spark程序非常相似&＃xff0c;在Spark程序中&＃xff0c;主要通过操作RDD&＃xff08;Resilient Distributed Datasets弹性分布式数据集&＃xff09;提供的接口&＃xff0c;如map、reduce、filter等&＃xff0c;实现数据的批处理。而在Spark Streaming中&＃xff0c;则通过操作DStream&＃xff08;表示数据流的RDD序列&＃xff09;提供的接口&＃xff0c;这些接口和RDD提供的接口类似。图3和图4展示了由Spark Streaming程序到Spark jobs的转换图。

图3 Spark Streaming程序转换为DStream Graph

图4 DStream Graph转换为Spark jobs

在图3中&＃xff0c;Spark Streaming把程序中对DStream的操作转换为DStream Graph&＃xff0c;图4中&＃xff0c;对于每个时间片&＃xff0c;DStream Graph都会产生一个RDD Graph&＃xff1b;针对每个输出操作&＃xff08;如print、foreach等&＃xff09;&＃xff0c;Spark Streaming都会创建一个Spark action&＃xff1b;对于每个Spark action&＃xff0c;Spark Streaming都会产生一个相应的Spark job&＃xff0c;并交给JobManager。JobManager中维护着一个Jobs队列, Spark job存储在这个队列中&＃xff0c;JobManager把Spark job提交给Spark Scheduler&＃xff0c;Spark Scheduler负责调度Task到相应的Spark Executor上执行。

Spark Streaming的另一大优势在于其容错性&＃xff0c;RDD会记住创建自己的操作&＃xff0c;每一批输入数据都会在内存中备份&＃xff0c;如果由于某个结点故障导致该结点上的数据丢失&＃xff0c;这时可以通过备份的数据在其它结点上重算得到最终的结果。

正如Spark Streaming最初的目标一样&＃xff0c;它通过丰富的API和基于内存的高速计算引擎让用户可以结合流式处理&＃xff0c;批处理和交互查询等应用。因此Spark Streaming适合一些需要历史数据和实时数据结合分析的应用场合。当然&＃xff0c;对于实时性要求不是特别高的应用也能完全胜任。另外通过RDD的数据重用机制可以得到更高效的容错处理。

了解了sparkstreaming的工作原理后&＃xff0c;我们来开始我们的实时处理实例编程吧

首先我们要做一个日志生产器&＃xff0c;方便本地模拟线上环境&＃xff1a;

直接上代码吧&＃xff08;原理是根据一个原始日志log&＃xff0c;然后随机的从中挑选行添加到新生产的日志中&＃xff0c;并且生产的数据量呈不断的增长态势&＃xff09;

import java.io._ import java.text.SimpleDateFormat import org.apache.spark.SparkConf, SparkContext import java.util.Date import java.io.PrintWriter import scala.io.Source import scala.util.matching.Regex object FileGenerater def main(args: Array[String]) var i&＃61;0 while (i<100 ) val filename &＃61; args(0) val lines &＃61; Source.fromFile(filename).getLines.toList val filerow &＃61; lines.length val writer &＃61; new PrintWriter(new File("/Users/mac/Documents/workspace/output/sparkstreamingtest"&＃43;i&＃43;".txt" )) i&＃61;i&＃43;1 var j&＃61;0 while(j writer.write(lines(index(filerow))) println(lines(index(filerow))) j&＃61;j&＃43;1 writer.close() Thread sleep 5000 log(getNowTime(),"/Users/mac/Documents/workspace/output/sparkstreamingtest"&＃43;i&＃43;".txt generated") def log(date: String, message: String) &＃61; println(date &＃43; "----" &＃43; message) /** * 从每行日志解析出imei和logid * **/ def index(length: Int) &＃61; import java.util.Random val rdm &＃61; new Random rdm.nextInt(length) def getNowTime():String&＃61; val now:Date &＃61; new Date() val datetimeFormat:SimpleDateFormat &＃61; new SimpleDateFormat("yyyy-MM-dd hh:mm:ss") val ntime &＃61; datetimeFormat.format( now ) ntime /** * 根据时间字符串获取时间,单位(秒) * **/ def getTimeByString(timeString: String): Long &＃61; val sf: SimpleDateFormat &＃61; new SimpleDateFormat("yyyyMMddHHmmss") sf.parse(timeString).getTime / 1000下面给出我们程序的configuration&＃xff1a;

zhangfusheng.txt内容如下&＃xff1a;

安徽宿州市汽车宿州分公司王红岩 18955079 20538 浙江嘉兴市汽车海宁分公司金韩伟 15305793 15703 安徽滁州市汽车滁州分公司严敏 15385906 14403 湖北武汉市汽车湖北汽车服务分公司张晴 18902923 10870 安徽淮北市汽车淮北分公司李亚 15305501 10484 安徽滁州市汽车滁州分公司王旭东 153055412 10174 安徽淮南市汽车淮南分公司尹芳 181096430 10085 湖北省直辖行政单位汽车仙桃分公司汤黎 189170533 9638 湖北 null 汽车潜江分公司朱疆振 18996689 9479 安徽宣城汽车宣城分公司李倩 18098229 9381 江苏徐州丰县分公司李萍 18914805005 9340 归属地安徽滁州市汽车滁州分公司阚家萍 15304795 9180 广东中山汽车服务中心农小萍 18070101 9095 归属地湖北孝感汽车孝感分公司黄燕平 189957628 8595 归属地安徽芜湖 null 邹恒清 18055349069 8537 归属地江西 null 汽车江西分公司产品事业部(汽车服务分公司、互联网安全管理中心) 张凯 17118 8089 安徽淮南市汽车淮南分公司李磊 18957707 8039 湖北省直辖行政单位汽车仙桃分公司朱艳 189770380 8025 浙江温州汽车温州分公司(本部) 吴玉春 153050010 7729 归属地安徽淮北市汽车淮北分公司魏薇 15305232 7533 湖北省直辖行政单位汽车仙桃分公司王雪纯 18972060 7405 湖北宜昌市汽车宜昌分公司刘丽娟 189086005 7269 湖北武汉市汽车湖北汽车服务分公司陶劲松 189182796 7209 安徽淮北汽车合肥分公司刘洁 181561187 7108 归属地湖北 null 宜昌电信公司鲜艳 18908606 7000 安徽淮北市汽车淮北分公司钱玉 105612841 6837 湖北武汉市汽车湖北汽车服务分公司谢真华 187181833 6757 安徽 null 马鞍山公司张颖 153096590 6710 安徽芜湖市汽车芜湖分公司许丽丽 155535300 6694 安徽合肥市汽车合肥分公司杨华丽 15305168 6666 安徽铜陵市汽车铜陵分公司黄琳 153629216 6665 安徽马鞍山汽车马鞍山分公司林花 13395726 6487 贵州 null 汽车贵州分公司10000号运营中心陈宣宏 189101372 6421 安徽合肥市汽车合肥分公司黄乐 153005266 6271 安徽淮南市汽车淮南分公司赵乃艳 153058367 6263 湖北武汉市汽车湖北汽车服务分公司蔡蕾 189076931 6218 湖北 null 汽车潜江分公司陈晓辉 18996898 6176 安徽马鞍山市汽车马鞍山分公司陈凤 15305365 6116 安徽合肥市汽车合肥分公司李大燕 18096819 6036我先来观察一下运行结果&＃xff1a;

最后我们就开始coding sparkstreaming的部分代码&＃xff1a;&＃xff08;主要要添加scala-sdk-2.10.6和spark-assembly-1.6.2-hadoop2.6.0等jar包&＃xff09;

/** * Created by mac on 16/8/12. */ import org.apache.spark.SparkConf import org.apache.spark.streaming._; object SparkStreaming def main(args: Array[String]) //开本地线程两个处理&＃xff0c;local[4]&＃xff1a;意思本地起4个进程运行&＃xff0c;setAppName("SparkStreaming")&＃xff1a;设置运行处理类 val conf &＃61; new SparkConf().setMaster("local[4]").setAppName("SparkStreaming") //每隔5秒计算一批数据local[4]&＃xff1a;意思本地起4个进程运行&＃xff0c;setAppName("SparkStreaming")&＃xff1a;设置运行处理类 val ssc &＃61; new StreamingContext(conf, Seconds(5)) // 指定监控的目录 val lines &＃61; ssc.textFileStream("/Users/mac/Documents/workspace/output") //按\\t 切分输入数据 val words &＃61; lines.flatMap(_.split("\\t")) //计算wordcount val pairs &＃61; words.map(word &＃61;> (word, 1)) //word &＃43;&＃43; val wordCounts &＃61; pairs.reduceByKey(_ &＃43; _) //排序结果集打印&＃xff0c;先转成rdd&＃xff0c;然后排序true升序&＃xff0c;false降序&＃xff0c;可以指定key和value排序_._1是key&＃xff0c;_._2是value val sortResult &＃61; wordCounts.transform(rdd &＃61;> rdd.sortBy(_._2, false)) sortResult.print() ssc.start() // 开启计算 ssc.awaitTermination() // 阻塞等待计算

结果&＃xff1a;

从结果可以看出&＃xff0c;sparkstreaming每次会将设置的时间分片以内发生的增量日志进行一次批量处理&＃xff0c;最终输出这个增量处理的结果。

推荐阅读

stream
电商高并发解决方案详解

本文以京东为例，详细探讨了电商中常见的高并发解决方案，包括多级缓存和Nginx限流技术，旨在帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-18 14:59:39
stream
Socket 编程基础入门

本文介绍了一个基本的同步Socket程序，演示了如何实现客户端与服务器之间的简单消息传递。此外，文章还概述了Socket的基本工作流程，并计划在未来探讨同步与异步Socket的区别。 ... [详细]

蜡笔小新 2024-11-25 12:35:34
stream
深入解析Socket结构与实现

本文详细介绍了Socket在Linux内核中的实现机制，包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容，读者可以更好地理解Socket的工作原理。 ... [详细]

蜡笔小新 2024-11-24 12:00:27
object
Android消息机制 & Android线程间通信机制

前言：由于Android系统本身决定了其自身的单线程模型结构。在日常的开发过程中，我们又不能把所有的工作都交给主线程去处理（会造成UI卡顿现象）。因此，适当的创建子线程去处理一些耗 ... [详细]

蜡笔小新 2024-11-18 10:46:11
io
RocketMQ在秒杀时的应用

目录一、RocketMQ是什么二、broker和nameserver2.1Broker2.2NameServer三、MQ在秒杀场景下的应用3.1利用MQ进行异步操作3. ... [详细]

蜡笔小新 2024-11-14 12:27:39
stream
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
scala
Twitter架构深度解析与学习心得

作为140字符的开创者，Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播，甚至在多次全球性事件中超越传统媒体的速度。然而，为了支持2亿用户的高效使用，其背后的技术架构和系统设计则极为复杂，涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]

蜡笔小新 2024-10-31 17:58:20
io
REST API 时代落幕，GraphQL 持续引领未来

尽管REST API已广泛使用多年，但在深入了解GraphQL及其解决的核心问题后，我深感其将引领未来的API设计趋势。GraphQL不仅提高了数据查询的效率，还增强了灵活性和性能，有望成为API开发的新标准。 ... [详细]

蜡笔小新 2024-10-27 09:13:29
js
物理隔离环境下的数据交换平台挑战与解决方案（上）

本文探讨了在一个物理隔离的环境中构建数据交换平台所面临的挑战，包括但不限于数据加密、传输监控及确保文件交换的安全性和可靠性。同时，作者结合自身项目经验，分享了项目规划、实施过程中的关键决策及其背后的思考。 ... [详细]

蜡笔小新 2024-11-20 18:18:23
io
oracle 对硬件环境要求,Oracle 10G数据库软硬件环境的要求

oracle 对硬件环境要求,Oracle 10G数据库软硬件环境的要求 ... [详细]

蜡笔小新 2024-11-18 15:17:57
include
RTThread线程间通信

线程中通信在裸机编程中，经常会使用全局变量进行功能间的通信，如某些功能可能由于一些操作而改变全局变量的值，另一个功能对此全局变量进行读取& ... [详细]

蜡笔小新 2024-11-18 14:56:11
stream
2019-2021年阿里Java面试真题汇总

本文总结了近年来在实际项目中使用消息中间件的经验和常见问题，旨在为Java初学者和中级开发者提供实用的参考。文章详细介绍了消息中间件在分布式系统中的作用，以及如何通过消息中间件实现高可用性和可扩展性。 ... [详细]

蜡笔小新 2024-11-18 10:03:28
object
Spring Boot + RabbitMQ 消息确认机制详解

本文详细介绍如何在 Spring Boot 项目中使用 RabbitMQ 的消息确认机制，包括消息发送确认和消息接收确认，帮助开发者解决在实际操作中可能遇到的问题。 ... [详细]

蜡笔小新 2024-11-16 20:54:38
io
PHP函数的工作原理与性能分析

在编程语言中，函数是最基本的组成单元。本文将探讨PHP函数的特点、调用机制以及性能表现，并通过实际测试给出优化建议。 ... [详细]

蜡笔小新 2024-11-16 19:21:45
io
8个IDC大数据基础定义解析丨IDC

本文针对IDC数据行业相关名词术语进行解析，分为4组相关概念，希望大家读完 ... [详细]

蜡笔小新 2024-11-16 18:25:46

--Fac_k-

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章